#Meta AI
淨利227億美元!Meta業績大超預期,2026年資本支出1350億美元
當地時間1月28日,Facebook母公司Meta公佈了截至2025年12月31日的第四季度及全年未經審計財報。受廣告業務持續修復以及AI相關投入預期提振影響,Meta第四季度營收與盈利雙雙超出市場預期。財報顯示,Meta第四季度營收為598.93億美元,同比增長24%,超出華爾街普遍預期的584.5億美元;淨利潤為227.68億美元,同比增長9%;攤薄後每股收益為8.88美元,同比增長11%,同樣超出市場預期的8.21美元。受超預期業績推動,Meta股價在盤後交易中上漲6.64%,報收於713.12美元。從全年表現看,Meta在2025年實現營收2009.66億美元,同比增長22%;但全年淨利潤為604.58億美元,同比小幅下滑3%,每股攤薄收益23.49美元,同比下降2%。利潤端的承壓,主要受“大漂亮法案”實施影響,Meta在第三季度財報中計入159.3億美元的一次性非現金所得稅支出。01 廣告業務穩定增長,使用者規模仍在擴張第四季度,Meta核心業務依然由廣告驅動。公司當季廣告營收為581.37億美元,同比增長24%,佔總營收的絕對比重保持穩定。其他收入規模相對有限,當季為8.01億美元。使用者與廣告指標繼續提供基本面支撐。2025年12月,Meta應用“家族”(Facebook、Instagram、WhatsApp 和 Messenger)平均日活躍使用者(DAU)達到35.8億人,同比增長7%;與此同時,第四季度廣告展現量同比增長18%,反映出廣告庫存與需求的同步修復。在營收高增長的同時,Meta的成本端擴張更為明顯。第四季度總成本和支出為351.48億美元,同比增長40%,顯著高於收入增速。其中,研發支出達到171.36億美元,同比大幅增長,繼續成為最大單項支出;營收成本、銷售及行銷支出亦同步上升。總務和行政支出同比大幅增加,反映出組織規模、合規及相關費用的抬升。在此背景下,Meta第四季度營運利潤為247.45億美元,同比僅增長6%。分業務來看,應用家族仍貢獻主要利潤來源,當季營運利潤為307.66億美元;Reality Labs 繼續拖累整體盈利,當季營運虧損擴大至60.21億美元。Meta在第四季度的資本支出(含融資租賃本金償付)達到221.4億美元,顯示出基礎設施投入的加速。全年維度,公司現金流依然充沛,截至年末持有的現金、現金等價物及有價證券總額為815.9億美元。在股東回報方面,Meta第四季度未進行股票回購,全年累計回購規模為262.6億美元;全年配息53.2億美元,股東回報策略趨於更為平衡。02 2026年指引:高投入周期延續對於2026年,Meta給出了一個明顯體現“高投入、穩增長”的指引框架。公司預計2026年第一季度營收將在535億至565億美元區間內,在當前匯率假設下,外匯因素將帶來約4%的同比正面影響。全年總支出預計將達到1620億至1690億美元。- 基礎設施相關成本(包括第三方雲支出、折舊費用及營運支出)將成為最主要的來源;- 員工薪酬支出則是第二大驅動因素,主要與AI相關技術人才招聘及存量人力成本有關。Meta同時預計,2026年資本支出將大幅上升至1150億至1350億美元,同比增長主要用於支援超級智能實驗室相關舉措以及核心業務的算力和基礎設施擴張。儘管投入顯著增加,公司仍預計2026年營運收入將高於2025年水平。在業務擴張之外,Meta仍面臨持續的監管不確定性。公司表示,已與歐盟委員會就“較少個性化廣告”方案達成進一步調整,並將在本季度逐步推出。但同時,Meta仍需應對來自歐美市場的監管與訴訟壓力,尤其是在青少年保護和反壟斷等領域,相關案件可能對其未來財務表現構成不確定影響。03 Reality Labs仍在燒錢,戰略重心加速轉向AI2020年第四季度至2025年第四季度Reality Labs的虧損情況Meta旗下Reality Labs部門在2025年第四季度錄得營業虧損60.2億美元,銷售收入為9.55億美元,同比虧損上升21%,營收同比下滑11.8%。自2020年底以來,該部門累計營運虧損接近800億美元,凸顯公司在虛擬現實與元宇宙投資上的高昂成本。為最佳化資源配置,Meta於2026年1月初裁減約1000名Reality Labs員工,約佔部門總人數的10%,並關閉了部分內部VR研發工作室。這一舉措顯示,公司正逐步將研發重心從元宇宙相關項目轉向人工智慧及可穿戴裝置,尤其是AI智能眼鏡領域。Meta目前與全球知名眼鏡製造商EssilorLuxottica合作,開發Ray-Ban Meta智能眼鏡,並於2025年秋季推出首款帶數位顯示屏的Meta Ray-Ban Display智能眼鏡,售價為799美元。公司技術負責人安德魯·博斯沃斯(Andrew Bosworth)表示,Meta並未完全放棄VR業務,但承認市場增長低於預期,尤其是在硬體銷量和內容生態建設方面仍存在挑戰。他指出,Reality Labs過去的投資雖然高昂,但通過將部分資源轉向AI和可穿戴裝置,公司希望在更具增長潛力的領域獲得突破。04 外媒點評:財報為激進AI投入爭取了市場耐心Meta最新公佈的第四季度業績,再次凸顯其核心廣告業務的強勁韌性,也為公司在人工智慧領域持續加碼提供了現實基礎。CNBC指出,廣告業務仍是Meta最重要的現金引擎,而人工智慧在廣告推薦、投放效率和變現能力上的持續最佳化,是推動業績超預期的關鍵因素之一。在業績穩健的背景下,Meta同時給出了遠高於市場預期的2026年資本開支指引。《華爾街日報》評論稱,這一數字釋放出明確訊號:Meta並未打算放緩其在AI基礎設施和模型研發上的擴張節奏。雅虎財經也表示,市場對Meta激進投資計畫的反應,與一年前形成鮮明對比。去年,投資者曾對公司在AI和元宇宙領域的高額投入持更為審慎態度,並要求管理層給出更清晰的回報路徑。而此次財報發佈後,Meta股價在盤後交易中走高,媒體普遍解讀為資本市場對其戰略方向的階段性認可。CNBC報導強調,Meta正在推進一項覆蓋算力、模型和應用層的全面AI佈局。在模型層面,Meta在經歷Llama 4市場反響平平後,對AI組織架構所做的調整,體現了公司加速新一代模型研發的決心。隨著Scale AI創始人汪韜(Alexandr Wang)出任首席AI官,以及“超級智能實驗室”的成立,代號為Avocado和Mango的新模型,有望在今年上半年面世。同時,Meta正在重新配置資源結構。公司近期對Reality Labs進行裁員,並將更多資金和人力轉向AI眼鏡等可穿戴裝置。這標誌著Meta在短期內進一步弱化元宇宙敘事,轉而聚焦更具現實變現潛力的AI應用方向。不過,CNBC提醒,Meta面臨的挑戰並未消失。一方面,AI相關投入的回報周期仍然漫長,且資本支出規模已接近行業高位;另一方面,監管不確定性、模型競爭加劇以及核心技術路線選擇,仍可能對公司長期表現構成影響。 (騰訊科技)
字節、OpenAI、Meta都在賭一件事
▎這是一場關於使用者入口和第一介面爭奪權的戰役。有沒有發現,大廠都在佈局自己的AI硬體產品。在達沃斯現場,OpenAI 的全球事務官克里斯·萊恩透露了一個最新消息,OpenAI 正在按計畫推進,準備在 2026 年下半年推出首款 AI 硬體裝置。這個消息讓原本就焦躁不安的科技圈徹底炸了鍋。這意味著,全球最頂尖的演算法引擎開始進入硬體賽道,在中國,近期無論是華為、字節、阿里都在湧入AI硬體市場。要知道,過去十年網際網路公司一直想擺脫笨重的硬體,追求輕資產的軟體模式,而現在,他們正不計成本地集體“返祖”,殺回那個曾經讓他們頭破血流的硬骨頭市場。典型的是字節,作為一家做軟體的公司,字節旗下的飛書最近聯合安克創新發了一款叫“一顆豆”的 AI 辦公硬體。在此之前,大家對飛書的認知還是文件、表格和視訊會議。但如果你把視角放大,你會發現這不只是飛書一家的動作。字節跳動、阿里、小米、百度,甚至是大洋彼岸的 Meta 和 OpenAI,都在瘋狂往硬體市場裡擠。Meta 的動作最激進。根據媒體報導,祖克柏已經要求製造合作夥伴在 2026 年底前,把 AI 智能眼鏡的年產能翻一倍,達到 2000 萬副。莫非,這是又一次科技熱潮來了?但是,回頭看看這些大廠在硬體路上踩過的坑,你就會發現這次集體湧入有多麼反常。過去十年,大廠做硬體幾乎是出一款死一款,尤其是在中國市場。百度做過手機,字節跳動做過堅果手機,阿里推過天貓精靈,騰訊也嘗試過各種社交硬體。結果呢?要麼是虧損離場,要麼是部門解散,軟體公司的基因裡似乎就寫著搞不定硬體。大廠做硬體,那就是往火坑裡跳。結果到了 2026 年,硬體潮不僅回來了,而且動作比以前更大。這背後到底發生了什麼?為什麼大廠願意再次跳進硬體這個苦差事裡?為什麼軟體公司做不好硬體?在聊為什麼大家現在都要做硬體之前,我們得先看看為什麼過去他們會失敗。你可能已經忘了,騰訊曾經也想做手機。2015 年前後,騰訊推出了 TOS(Tencent OS)系統,甚至還聯合廠商出過手機。結果呢?市場上根本沒激起一點水花,項目很快就停了。字節跳動收購堅果手機後,也沒能逃掉失敗的宿命。大廠做硬體之所以難,是因為基因裡帶著一種網際網路公司的傲慢。網際網路公司的邏輯是快速試錯、小步快跑。一個 App 出了錯,程式設計師通宵改一下程式碼,第二天使用者更新就能恢復。在這個世界裡,邊際成本幾乎是零。多一個使用者,不過是多佔一點伺服器空間。但硬體完全是另一碼事。硬體的邏輯是一錘子買賣。如果你開模的時候錯了一毫米,那幾十萬個外殼就全是廢料。如果你在供應鏈上少訂了一個感測器,你的整條流水線就得停工。硬體公司追求的是每一個零件的成本控制,是庫存的周轉率。比如當年的智能音箱大戰。大廠為了搶使用者,把成本 200 元的音箱賣 69 元,甚至更低。他們想的是,只要你買了我的音箱,你就會用我的音樂服務、買我的東西。使用者確實買了,但買回去只是當個鬧鐘或者收音機。硬體本身不賺錢,軟體服務也帶不動,最後這些硬體部門成了公司帳上沉重的包袱。簡單來說,軟體公司以前不懂硬體的敬畏感,用做 App 的心態去做硬體,最後被供應鏈和庫存教做人。AI改變了遊戲的規則既然過去這麼慘,為什麼現在大家又覺得行了?答案在 AI 大模型裡。最重要的原因其實只有兩個字:互動。過去,硬體很難做。因為你要設計螢幕,設計複雜的菜單,設計使用者怎麼點、怎麼按。這需要極強的工業設計和互動邏輯。軟體公司做不好硬體,很大程度是因為他們把硬體設計得太複雜了,搞不定這些物理層面的複雜互動。但 AI 大模型出現後,情況變了。現在的 AI 硬體,不再需要螢幕,甚至不需要多餘的按鍵。你看看飛書的“一顆豆”,核心互動就是:聽和說。再比如AI眼鏡,你對著眼鏡說一句話,它能理解你的意思,然後直接執行。這種互動方式把硬體的門檻拉低了。軟體公司發現,他們不需要去研究怎麼做一個完美的觸控屏,他們只需要做好那個“大腦”(AI 模型),硬體只要提供麥克風、攝影機和晶片就可以了。現在的硬體,本質上變成了 AI 的感測器。就拿Plaud Note 這個產品來說,它賣得好,是因為抓住了 iPhone 不能通話錄音這個痛點。但使用者買它,真的只是為了錄音嗎?不是。使用者買它是為了錄音後的總結、轉寫和翻譯。如果沒有 ChatGPT 這樣的模型在後面撐著,這個錄音筆就是一個普通的電子垃圾。是 AI 讓這些結構簡單的硬體有了思考和總結能力。軟體公司突然發現,他們不需要去跟蘋果、華為比拚精密的工業設計,他們只需要做一個簡單的載體,把自己的 AI 模型裝進去。對於飛書來說,做“一顆豆”初衷肯定不是為了賣硬體賺錢,而是為了讓飛書的 AI 能夠走出電腦和手機。如果你在開一個線下會議,在開車的路上,你沒法打開電腦寫文件,這時候“一顆豆”就成了你的外掛大腦。簡單來說,軟體公司最擅長的東西,現在成了硬體最核心的競爭力。字節、Meta、OpenAI都在賭一件事你可能會問,既然軟體這麼強,那像以前一樣,只做 App 不就行了嗎?為什麼要自己下場做那個硬體?不妨想像一下 2026 年的場景。如果你戴著 Meta 的眼鏡,或者戴著 OpenAI 的耳機,你產生了一個需求。比如你想定一個下午三點的會議。這時候,你會掏出手機,解鎖,找到飛書圖示,點進去,再找日曆嗎?大機率不會。你會直接對著眼鏡說:幫我定個會。這時候,眼鏡裡的 AI Agent(智能體)就會直接幫你把事情辦了。在這個過程中,飛書這個 App 徹底消失了。它變成了一個躲在後台提供資料的“外掛”。這對軟體大廠來說是致命的。如果使用者不再打開 App,大廠就失去了對使用者的直接控制權。他們看不見使用者的行為習慣,也沒法給使用者推廣告,更沒法賣其他增值服務。他們成了給硬體商打工的。飛書做“一顆豆”,Meta 做眼鏡,OpenAI 做耳機,本質上都是在保衛自己的互動入口。他們必須擁有一個屬於自己的硬體載體,才能確保使用者在產生需求的一瞬間,第一個找的是他們的 AI,而不是別人的。誰掌握了那個離使用者耳朵最近、離使用者眼睛最近的硬體,誰就掌握了使用者的習慣。簡單來說,字節、Meta、OpenAI都在賭一件事:使用者不點App,該怎麼辦?這是一場關於使用者入口和第一介面爭奪權的戰役。資料荒,沒有資料更慌除了搶佔入口,還有一個更隱秘的原因:AI 已經把網際網路上的資料吃光了。你可能不知道,現在的 AI 模型正面臨一個尷尬的現實,網際網路上的高品質文字資料快被用光了。根據 Epoch AI 研究院的一份報告預測,高品質的英語語言資料可能會在 2026 年到 2032 年之間枯竭。在中國,各家大廠的資料又都自成一派,都自己守著不開放。如果 AI 想繼續進化,它必須去尋找新的資料來源。這些資料在那?就在我們的現實生活裡。網際網路上的資料是“死”的,是別人加工過的。但現實世界裡的對話、你看到的場景、你開會的語氣,這些是活生生的資料。AI 硬體本質上是一個 24 小時開啟的探測器。當你戴著 AI 眼鏡走進超市,開著 AI 錄音筆開會,AI 就在即時學習人類是如何處理現實問題的。它能看到你挑商品的邏輯,能聽到你談判時的技巧。這種來自物理世界的,第一視角的音視訊資料,是目前訓練下一代 AI 最稀缺的資源。軟體大廠通過賣硬體,其實是在全世界範圍內安插了無數個眼睛和耳朵。這些資料回傳到雲端,能讓他們的模型變得更聰明,更懂人類的行為邏輯。大廠為什麼要做AI硬體?他們要的不是那點硬體利潤,而是你眼前的真實世界。硬體不再是一個沉重的資產為什麼這次大家覺得能做成?因為大廠變聰明了,他們不再試圖自己去搞定所有事情。以前大廠做硬體,從電路板設計到開模,再到工廠排產,全部自己攬。結果不僅慢,而且專業度不夠。現在的趨勢是合作。比如前不久豆包與中興聯合做手機,飛書這次選擇和安克創新做“一顆豆”,就是典型的訊號。不得不說,字節已經深諳軟硬的雙打模式了。安克創新是全球領先的消費電子公司,他們對供應鏈、電池、音訊晶片等硬體的理解是世界級的,供應鏈優勢也非常能打。安克創新出硬體載體、出分銷管道。飛書出 AI 模型,連接辦公生態。這種分工,讓軟體公司的試錯成本大幅度下降。飛書不需要去研究怎麼做一個不發熱的充電晶片,安克創新也不需要去訓練一個大語言模型。這種“樂高化”的組裝模式,讓硬體的研發周期從以前的 18 個月,縮短到了現在的 6 個月甚至更短。硬體不再是一個沉重的資產,而變成了一個可以快速迭代的外掛。硬體的生產周期被縮短,風險也被分擔了。這讓大廠們覺得,這個火坑值得再跳一次。 (鈦媒體)
馬斯克演示意念寫程式碼,亞馬遜裁員1.4萬人以推進AI轉型,Meta Ray-Ban AI眼鏡產能翻倍
2026年1月23日AI領域新聞彙總 AI技術最新動態與發展趨勢科技前沿 探索AI領域最新技術突破與創新成果,瞭解行業前沿動態。Part.01 百度文心大模型5.0正式版上線百度文心大模型5.0正式版於1月23日發佈,參數達2.4兆,採用原生全模態統一建模技術,實現文字、圖像、音訊、視訊的深度融合。該模型在LMARENA全球大模型競技場榜單上,文字理解能力位列全球第八、國內第一,數學能力排名全球第二。通過超稀疏混合專家結構(MOE),每次推理僅啟動不到3%的參數,在保持強大能力的同時大幅降低計算成本。圖 | 百度文心大模型5.0Part.02 馬斯克演示意念寫程式碼埃隆·馬斯克在X平台直播了Neuralink與xAI的最新聯合成果,一名植入Neuralink N2晶片的四肢癱瘓志願者僅通過思考,就指揮xAI模型在30秒內編寫並部署了完整的FlappyBird克隆遊戲。這一演示標誌著人機介面與生成式AI實現首次深度融合,馬斯克稱未來的程式語言將是神經元電位。圖 | 意念寫程式碼演示Part.03 豐田AI破解無限壽命電池豐田研究院與MIT AI實驗室聯合宣佈,利用材料發現模型MatGenUltra,在48小時內篩選3000萬種晶體結構,成功發現新型固態電解質。該材料能讓固態電池在5000次充放電循環後仍保持95%的容量,相當於電動車行駛150萬公里的壽命。豐田股價當日大漲5%,並宣佈將於2027年實現量產。>圖 | 豐田固態電池Part.04 南水北調“天河”大模型發佈南水北調“天河”大模型正式發佈,建構了智算雲平台和兩大中台,具備智能感知與認知、精準預報與預警等能力。該模型可實現關鍵部位隱患故障自動識別,精準率穩定在98%以上,還能開展未來15天滾動預報及洪水過程智能推演,提升洪澇災害預判能力與應急決策科學性。圖 | 南水北調天河大模型商業投資 關注AI領域最新商業動態與投資趨勢,把握行業發展脈搏。Part.01 亞馬遜裁員1.4萬人以推進AI轉型亞馬遜計畫削減約1.4萬個企業崗位,主要涉及技術、人力資源、行銷和財務部門。CEO Andy Jassy表示,公司正通過AI工具自動化重複性任務,並將資源轉向高增長領域,如AI開發和雲端運算基礎設施建設。這是亞馬遜推動AI轉型的重要舉措。Part.02 盛聚桓通獲千萬級融資安徽盛聚桓通科技有限公司成功獲得千萬級融資,其核心產品“甄能省”智能車生活服務平台依託AI技術和創新商業模式,使用者活躍量突破千萬等級,新使用者增長率高達50%。該平台通過“別人加油,你就賺錢”的模式,建構了多元收益體系,為線下實體加油站提供零成本的行銷賦能工具。Part.03 Google收購Hume AI團隊Google DeepMind聘請Hume AI的CEO和工程師團隊,將其情感智能語音技術整合到Gemini模型中。此舉旨在提升AI在語音互動中的情感理解能力,使Gemini模型能更好地理解使用者的語氣和情緒,提供更自然的互動體驗。Part.04 燧原科技科創板IPO獲受理燧原科技科創板IPO申請獲受理,成為2026年首家AI晶片企業。公司擬募資用於第五、六代AI晶片研發與產業化,獲大基金和騰訊投資支援。燧原科技的產品將進一步推動國產AI算力晶片的發展,提升國產算力供應鏈的自主性。實用工具 發現AI領域最新實用工具與應用場景,提升工作與生活效率。Part.01 螞蟻健康與中國營養學會合作螞蟻健康與中國營養學會達成深度合作,雙方將共建權威營養學知識庫,推動個性化營養服務的行業標準。相關成果將率先應用於螞蟻阿福App,為使用者提供更專業、可靠的健康與飲食建議。通過AI技術,阿福App將能根據使用者的個體差異,提供個性化的營養方案。Part.02 字節扣子2.0發佈字節扣子2.0正式發佈,支援AI長期任務協作,通過低程式碼工具助力中小團隊快速搭建定製化智能體。該版本提升了AI在複雜任務處理中的能力,使中小團隊能夠更高效地開發和部署AI應用,降低了AI技術的使用門檻。Part.03 OpenAI上線Sentinel系統OpenAI低調上線企業級安全產品Sentinel,這是一個被稱為“反AI的AI”的監控系統,專門用於即時掃描企業網路中其他AI智能體的行為。一旦發現異常行為,如社會工程學攻擊、未授權程式碼注入等,Sentinel將立即進行攔截並凍結對方權限,為企業構築智能化的數字防線。Part.04 Meta Ray-Ban AI眼鏡產能翻倍Meta宣佈將Ray-Ban AI眼鏡的產能翻倍至2000萬副,並新增即時翻譯和手勢控制功能。這一舉措將進一步推動消費級AI硬體的普及,使更多使用者能夠體驗到AI技術帶來的便利。圖 | Meta Ray-Ban AI眼鏡(Key的AI觀察室)
🎯記憶體、PCB、低軌衛星後,下一個接棒主流浮現!Line@連結:https://lin.ee/mua8YUP🎯記憶體飆、PCB漲三個月、低軌衛星飛天……你不敢買的話,還有一個選擇:AI眼鏡。🚀2026年:AI眼鏡的「放量元年」以前的眼鏡叫「科技垃圾」,又重、又熱、還沒軟體用。 現在的AI眼鏡叫「外掛大腦」。它不需要炫砲的3D畫面,它只要能聽懂你的指令、看懂眼前的法文菜單、翻譯會議上的各種語言。HSBC預測:2040年市場規模衝上2,000億美元,用戶從1,500萬爆增到2.89億人。 這不是科幻片,這是2026年就會在你我生活中上演的「錢潮」。台股供應鏈誰是「真金」?看這四條線:1.獲利大翻身的「光學老兵」:6209今國光爆點:2025年營收衝上9年新高,靠的不是傳統相機,而是Google!關鍵技術:今國光轉型深耕「光波導」與「光引擎」,這是AI眼鏡的「視網膜」。反差:過去被市場冷落,現在是Google XR產品,2026年量產的首席光學盟友。法人估計2026年EPS有望倍增,毛利率直接衝破21%!2.全球前四強的「關鍵材料」:3645達邁爆點: 它是Meta AR眼鏡的隱形大將!當Meta喊出2026年產能要衝2,000萬副時,誰能供貨?只有達邁。關鍵技術:AI眼鏡要輕、要散熱、電路要細,全靠它的透明PI(聚醯亞胺薄膜)。地位:達邁剛砸5億擴建產線,2026年正式投產。這不是在蹭題材,這是「產能被包走」的前奏!3.耳朵(聲學之王):2439美律、6679鈺太美律:Meta聲學核心,想像空間直接拉滿。鈺太:D-Mic市佔稱霸,讓AI聽清楚你的指令,它是唯一救贖。4.投影技術:3294英濟、3504揚明光守住LCoS與微投影光學引擎,這是讓影像投射在鏡片上的關鍵技術。🔴想知道幾檔裡面,哪一檔才是真正的「黑馬」?接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
讀完200篇論文,看DeepMind、Meta、DeepSeek ,中美巨頭都在描述哪種AGI敘事
在剛剛過去的2025年,我通讀了大約兩百篇人工智慧領域的論文。如果用一個詞來形容這一年的技術體感,那就是「暴力美學」時代的終結。單純依靠堆砌參數摘取低垂果實的日子已經過去,2025年的技術進化回歸到了基礎研究。這篇文章,我想透過梳理這一年的技術脈絡,明確三個結論:的瓶頸,業界被迫尋找新的成長點,即從「把模型做大」轉向把「模型做聰明」。第一,2025年,技術進步主要集中在流體推理(Fluid Reasoning)、長期記憶(Long-term Memory)、空間智能(Spatial Intelligence)以及元學習(Meta-learning) 這四個領域。原因在於Scaling Law在單純的參數規模上遇到了邊際效應遞減,為了突破AGI第二,現在的技術瓶頸主要在模型要「不僅要博學,更要懂思考和能記住」。 透過Yoshua Bengio提出的AGI框架(基於CHC認知理論),我們發現先前的AI存在嚴重的「能力偏科」:它在一般知識(K)上得分極高,但在即時推理(R)、長期記憶(MS)和視覺處理(V)上幾乎是空白。這種不平衡構成了通往AGI的最大阻礙。第三,這些瓶頸在25年其實都找了一些新的解決方向,可以說是補短板很成功的一年。其中最重要的是三個面向。●  推理能力: 透過Test-Time Compute(推理時計算)引發的革命,AI學會了慢思考,推理能力實現了從0到8的質變。●  記憶能力:Titans架構和Nested Learning的出現,打破了Transformer的無狀態假設,讓模型具備了內化的“海馬體”,有望徹底根治金魚記憶。●  空間智能: 視訊生成不再只是像素的堆砌,而是開始掌握物理規律,邁向了真正的世界模型。接下來,我將根據這一年間的論文閱讀,帶領大家詳細看看這些關鍵拼圖是如何被一塊塊補齊的。(因為篇幅限制,各個方向上涉及的論文我只是簡單做了講述,如果有興趣深入了解,可以看文後的相關論文參考。已分章節處理。)01流體推理的演化,Test Time Compute的誕生與發展在2024年,AI明顯的短板是即時推理(R)能力。在GPT-4的時代,AI只會依賴機率直覺,推理什麼的一點不會。但在2025年,Test-Time Compute(推理時計算)透過拉長推理時間來換取智能。 Test-Time Compute 的核心概念是:智慧不僅是參數的函數,也是時間的函數。以OpenAI o1和DeepSeek R1為代表,AI學會了「慢思考」。 透過在推理階段投入更多的運算資源,它開始在輸出答案之前,在內部進行長達數秒甚至數分鐘的自我辯論和推演。這就是2025年最重要的典範革新,讓AI從背書的鸚鵡轉向思考的機器。因為模型的思考過程是無法在預訓練期間進行引導的,因此後訓練、尤其是強化學習(RL),就成了提升推理能力的最重要的手段。但事情並非一帆風順,在2025年,《強化學習真的能激勵LLM超越基座模型的推理能力嗎? 》這篇論文引發了大概半年左右的學術爭論。研究發現,在許多情況下,RLVR訓練後的模型產生的正確推理路徑,其實在基座模型的取樣分佈中原本就存在。 RL的作用只是銳化了分佈,顯著提高了採樣到這些路徑的機率,而並非真正「創造」了基座模型完全未知的推理能力。對此,在後續長達半年的論爭後,現在的通行結論是基座模型可能確實包含了所有必要的原子推理步驟(如加減法、基本邏輯變換),但RL的作用在於透過數萬次的試錯,篩選出能夠穩定維持長距離依賴的策略路徑。另外,CMU研究指出,RL訓練有三個階段。第一階段是“銳利化”,僅提升已知路徑的機率;但隨著訓練深入,模型進入“連結(Chaining)”階段,開始將基座模型中原本機率極低的不對稱技能(如驗證與生成)連結起來,從而解決從未見過的難題。這說明RL不光在銳化,也確實能夠有效組合新的推理方法。但學術界的這種形而上討論,沒能阻止業界的工程優化熱情。因為Benchmark的成長不會騙人。強化學習的本質,就是透過與環境互動獲得回饋,在探索未知與利用已知之間尋找平衡,以最大化長期累積獎勵為目標,從而學習出一套最優的決策策略。因此,它的工程可以拆分成核心的三個策略,探索策略(採樣)、評分(包括評分標準和如何評分)和參數更新演算法三個部分。在2025年,強化學習的方法在其中兩部分都得到了明顯的發展。而採樣的策略則還是集中在蒙特卡洛方法(一步一步尋找新分支)、暴力溫度採樣(調高模型的多樣性,采出多種可能)和在23年大火的STaR 模式(就是模型對自己的結論點評後,根據點評再找別的路)這三種方法上,不過25年,因為DeepSeek R1的成功,因為暴力溫度又能出明顯了主流工程結果。評分系統的革新在2025年首先發生的是基於可驗證獎勵的強化學習(RLVR)和稀疏獎勵指標(ORM)的全面崛起。由於DeepSeek R1的成功,讓大家發現,只要給模型一個對錯結論作為獎勵訊號,模型就可以自發性探索其中的推理過程。這導致了ORM的崛起。而在ORM領域,那些能明確給出結果對錯(可驗證的客觀真理)的領域,例如數學、程式碼、邏輯等方面,強化學習就很好下手,效果也很容易提升。基於這些客觀真理形成的強化學習獎勵機制,就稱為可驗證獎勵。在2025年前半年,RLVR(驗證結果)+GPRO(分組探索解法)的方法突飛猛進,基本上成了主流方法,也帶來了模型在程式碼、數學領域的能力大幅提升。然而,用的久了,大家發現如果像複雜數學、程式碼這種推理過程過長的情況,那ORM很有可能會崩掉。所以有的公司會在其中加一部分過程獎勵評分系統(PRM)的因素,例如Qwen的代碼解釋器驗證,主打辨識推理過程中的錯誤步驟。而防止ORM崩潰跑偏的KL正規理論也在今年有了更多的發展。另一個問題就是RLVR是挺好用的,但不是所有領域都有可驗證的真假,比如在文學、乃至醫療這種更偏統計性的領域,目前就沒有完全的真假科研,那怎麼辦呢?因此我們可能需要一個更宏大的Universal Verifier(通用驗證器),去解決這個問題。目前已經有的兩個思路,一個外求法:既然標準不唯一,那就人工或靠模型製訂複雜的評分細則(Rubic),然後讓模型根據Rubic去進行獎勵。而另一個,是相信模型自己的直覺(內求法),利用模型自己的確信度去影響無明確獎勵的領域訓練。例如Kimi K2的joint RL stage策略,就是把RLVR 和self-critique rubric reward 結合起來做RL。參數更新演算法的革新DeepSeek R1帶來的第二個RL震盪就是GPRO演算法的流行。在過去,RL的主流方法是PPO,在這個框架裡,有兩個角色,一個是Actor Model,負責寫答案。還有一個是Critic Model,來給演員的每一步打分數。這個方法特別適合PRM,給每步都評分,但它非常貴,因為它得一直在線訓練,讓模型嘗試完了再在線打分。但GPRO不一樣,它直接把Critic模型切掉了,讓模型產生一組答案,算平均分數來代替Critic,來看誰做的好,誰做的壞。一下子省下來50%的顯存,搭配ORM,更是極簡中的極簡。非常省成本,效果也不差。因此,基本上國內各家都是在GPRO的框架上延展,在2025年這一年發展出了各種變體。例如Qwen的GSPO的優化引入了分數加權,不只看你是否高於平均分,還看你的絕對得分是多少,讓GPRO能夠從對的里選出更好的,把全錯的都排除出梯度,讓訓練更穩。 Minimax的CISPO,則是發現傳統GPRO / PPO訓練的時候,會暴力截斷過長的COT上下文,導致核心思考沒辦法用起來,所以做了個重要性採樣,保留下更重的部分去更新。除了這些特別具體的更新外,業界同時試圖找到強化學習的Chichila法則。例如Meta的ScaleRL,就在多種消融實驗中發現RL的成長曲線其實有天花板。他們證明了RL性能與計算量之間不符合冪律(就是Scaling Laws那種算力越大,能力越大的模式),而是符合Sigmoid 曲線的(起步難,中間猛,最後死活漲不動)。這不是什麼好消息,表示RL是有天花板的。我們不能指望靠RL 無限提升模型的智力上限。 它只能把模型已有的(預訓練賦予的)潛能「逼」出來,一旦逼到了100%,RL 就失效了。想再突破,還得回去革新底座模型或是演算法架構。但好消息是,我們離天花板還很遠呢,還差著一堆工程創新。另外,基礎模型的能力提升也不是完全停滯的。ScaleRL也提出了一套最佳工程實踐,包括使用長思維鏈(Long CoT)作為關鍵驅動力,以及使用大Batch Size(如2048 prompts)來觸達更高的性能天花板。這項研究將RL從「煉金術」轉變為一門精確的工程科學,使得研究者可以透過小規模實驗精準預測大規模訓練的效果。所有這些對RL工程的探索,使得今年的模型,能夠在不增加參數的情況下,依然在整體能力上穩步上升。一次又一次打破ARC和Humans Last Exam的標尺,同時帶動了數學和程式碼能力的大幅上升。02記憶與學習, 治癒模型的健忘症如果說Test Time Compute是前半年最重要的模式變革,那後半年最重要的模型變革,就是記憶能力的提升。畢竟,這是唯一在GPT-5時代,在AGI得分裡還是0的分支能力,屬於短板中短板,漏水的大戶。模型沒有記憶有啥問題?第一,沒有記憶能力的模型不可能在現實中自我學習,必須得在算力工廠裡再訓練學習。這種再訓練昂貴,訓練源可能與日常使用完全脫節,因此持續學習成了一個無比困難的事項。第二,想有個能記得你是誰,你的偏好的AI,就變得很費力。例如我的Gemini 3,現在只靠系統級的Prompt累積一點點關於我的記憶,但大半還是錯的。在24年大火的RAG(檢索增強生成)雖然作為一種外掛式的「海馬體」緩解了這一問題,但它當時的形態只是資料庫和搜尋機制,還很不好用。在25年,記憶問題的研究其實得到了許多發展,只是大多出現在後半年,尚未真正融合進工程。記憶可以分為三種方式,上下文作為記憶、RAG處理過的上下文作為記憶以及將上下文融合到參數裡,內化的進行記憶。難度層層遞進。今年RAG和參數調整的記憶方式都發生了很大的科研進步,但其中最耀眼的是Google Research發布的Titans 架構以及Nested Learning,是2025年記憶領域的最大突破,屬於架構級提升。從根本上挑戰了Transformer的無狀態假設。我們現在一個個看。模型,獲得活著的記憶Titans 是一個深度的神經長期記憶模組,能夠在測試時(即推理過程中)即時更新自身的參數。這和傳統的Transformer層,訓練完就凍結完全不一樣。 Titans在一開始就是個空容器,就一個初始權重,將歷史資訊學習進神經記憶中。和傳統的壓縮模式(Mamba)比,這種學習是無損的。那怎麼決定什麼東西記憶,什麼不記?靠驚奇度(Surprise Metric),模型會根據輸入資訊的意外程度(梯度大小)來決定是否將其存入長期記憶。這和人差不多,越新鮮有衝擊的東西越記得住。Titans是隨時更新權重的,這意味著還要做反向傳播和梯度更新,豈不是很貴嗎?確實,單看是很費GPU算力,但它一般是和普通Transformer層混用,只佔一小部分,所以雖然但並不很重,而且可以省去巨量的上下文開支。而且,它還可以將記憶作為額外的上下文輸入給注意力機制,如同一個高級助手,提供背景資訊。透過門控機制融合短期注意力與長期記憶,處理更靈活,並行處理短時與長時依賴。這也可以提升模型本身的效率。同時,Titans也引入了遺忘機制(Weight Decay),自動清理不再重要的資訊。如果說這是在不會記新東西的Transformer上加了一些記憶模組補丁,那麼Nested Learning就是一個更宏大的架構改變。在Nested Learning中,Google做了一個分層,把模型的架構分成了低、中、高三個更新頻率的神經網路層。把整個模型的參數凍結都解放了,這個模型都是活的,可以隨時調整參數。低頻參數的調整很慢,大概需要16M token的前向更新才會調整一次。它保證了知識的延續性,避免了災難性遺忘。而快速的回饋則交給高頻的神經網路層處理,這樣可以快速反應,做短期記憶。於是我們就有了一個持續更​​新的,非凍結的神經網絡,它可以抱持長期記憶,並持續學習。而且因為更新頻率不高,且更新比較局部,其成本比一般的SFT、RL達成同等效果的成本還要低。谷歌甚至提出了一個更大的體系MIRAS,它把序列模型看成一個會邊讀邊寫的聯想記憶模組。每一個token,你把它投影成key 和value;模型用當前記憶去「檢索/回憶」一個value;然後用一個內部目標函數(attentional bias)和一個保留/遺忘約束(retention gate),透過某種線上優化/更新演算法(memory learning algorithm)去更新記憶。 Titans和Nested Learning,都屬於在不同層面上對MIRAS的嘗試。這項調整,使得模型具備了持續學習和更新長期記憶的基礎。不過考慮到它對模型架構的改變,在工業大規模應用上可能還需要一段時間。RAG模型化之前,RAG曾被訌諷為圖書館員,只增不減,照單全收。但2025年,它發生了質的飛躍,演變為具備反思與進化能力的系統,甚至可以在一定程度上產生如同參數般的效果。這波RAG改造浪潮中,比較有代表性的還是DeepMind 提出的ReMem 和Evo-Memory。ReMem讓RAG不再是簡單的資料庫式的“檢索-生成”,而是透過一個Agent 引入了Action-Think-Memory Refine 的全鏈路處理方法。在新上下文存入記憶前,會有個Agent對其進行「內省」(Think),標記出那些是無效步驟,那些是關鍵策略。在記憶過程中,模型也會對進來的上下文進行修剪(Pruning)和重組(Reorganizing),讓它更容易被檢索,保留最重要的資訊。同時,模型會定期清理無用的記憶,甚至將失敗的嘗試作為「負面教材」存入,其效果等同於RLHF(人類回饋強化學習)的負向懲罰。這機制使得記憶不再是靜止的錄影,而是經過壓縮和提純的智慧。它儲存的更多是策略,使得模型在處理類似任務時能夠調用過往的成功經驗,實現了真正的經驗復用。微調與蒸餾讓遺忘性災難不再存在在2025年之前,災難性遺忘是參數記憶更新的最大敵人。模型用微調的方式做更新,很容易學了新的忘了舊的,通用能力受損;用強化學習做更新,不容易遺忘,但成本又太高。但在2025年,學術界提出了多種解決方案,讓模型在學習新知的同時不失去舊能力。例如Meta 提出的Sparse Memory Finetuning (稀疏記憶微調)。它在Tansformer裡加了一個百萬個獨立插槽的空白記憶體層。當新知識進入時,系統篩選出更不重要的、和核心舊知識相關性不高的插槽進行更新。這種稀疏更新策略,確保了在註入新知識的同時,絕大部分舊參數保持不變,從而完美保留了原有能力。實驗表明,在TriviaQA事實注入任務中,該方法僅導致11%的舊知識遺忘,遠優於全量微調的89%。再如Thinking Machines 提出的在策略蒸餾(On-Policy Distillation, OPD),結合了RL 的取樣方式和SFT 的監督訊號。訓練資料不再是老師的錄影,而是學生模型自己即時產生的軌跡。學生要在自己真實的「犯錯分佈」中學習,這是RL的取樣方法。但它評估用的是SFT的密集回饋,老師模型會全程陪跑,在學生生成的每一個Token 上都計算KL 散度(即直接告訴學生你和我的差距在那裡),提供密集的即時反饋,而不是像RL 那樣最後才給一個標量分數。這種方法創造了一種既不會導致災難性遺忘,同時也極大壓縮成本的參數更新方式。兩條路徑,最終都導向了透過微調更新模型參數更穩定的路徑,這樣的話模型就可以更快捷、便宜的進行線下更新。夢想中的白天模型陪你說話, 晚上你睡覺更新你的神經元連接,它微調更新它的參數,也許會變成可能。03走出“柏拉圖洞穴”,迎來空間智能(Gv) 與世界模型另一個在Bengio AGI定義2024年得分還是0的一項,就是視覺處理。今年,這項能力在Sora 2、 Veo 3等生成影片的爆發之下,得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下,模型似乎開始有了對物理規律更深的掌握,進入到了空間智能和世界模型(World Models)的範疇。雖然今年主要是李飛飛在大力宣揚空間智能的概念。但實際上在這條路上,一共有三個主流派系和玩家,在今年也都各有研究進展。自監督生成模型的Scaling Law第一派就是Sora 2、Veo 3這些採用了DiT架構的自監督模型,也就是我們常見的視訊生成模型。不過要論空間智能,2025年8月,Google DeepMind發表的Genie 3更明顯。 Genie 3,是個生成的、可互動的、持續演變的3D環境。與其前代相對破碎的呈現不同,Genie 3具有了即時性和一致性。它能以24fps的幀率和720p的解析度即時渲染環境,且能維持數分鐘的場景一致性。如果你在虛擬世界中打破了一個花瓶,當你轉身離開再回來時,花瓶碎片依然在地上,而不是像早期生成視頻那樣莫名消失或復原。除此之外,Genie 3非常好的展現了自監督模型的物理學習能力。它完全沒有參考物理引擎,只是透過觀看海量影片數據,自發性地學會了流體流動、光影反射甚至風吹樹葉的物理規律。之所以視訊生成模型能夠獲得如此大的進步,主要是因為學術界發現了視覺自回歸(Visual Autoregressive, VAR)和擴散Transformer(DiT)的Scaling Law。2024年,字節的Visual Autoregressive (VAR) 模型的提出,排除了Diffusion部分,透過改變token的建模,從行變成圖,讓自回歸獨挑大樑。因為是純自回歸,它的性能嚴格遵循Scaling Law。但這個路子畢竟還是有點野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》,更主流的DiT也被發現符合Scaling Law,不過這個Law與LLM不太一樣。與LLM相對穩定的特性不一樣,視訊擴散模型對批量大小(Batch Size)和學習率(Learning Rate)表現出極高的敏感度。直接套用LLM的縮放定律會導致預測失效。但用上特製的Scaling Law,DiT模型就可以大力出奇蹟了。在Veo 3成員的訪談中,Deepmind的員工就表示,訓練這麼好,主要是打通了影片產生的Scaling Law。除此之外,今年影片產生的另一個新變化就是加上聲音了。這主要歸功於Google一直堅持的原生多模態能力。而2025年4月,Apple Machine Learning Research發表了《Scaling Laws for Native Multimodal Models》發現,晚期融合架構(後台多模態)相對於早期融合架構(原生多模態)可能存在一定上限上的劣勢。過去晚期融合模型通常表現出較高的樣本效率,就是我後面加一個影像編碼器,就可以直接讓語言模型變成視訊模型,變化賊快。這意味著費力去訓原生多模態,得不償失。但晚期融合模型在參數利用率上存在瓶頸,為了達到特定的性能水平,晚期融合架構得需要更大的模型尺寸來補償那個新加視覺編碼器帶來的表徵限制,因此同等規模,上限更低。另一個特別值得注意的動向,是VAE的消失。 VAE你可以理解成視訊的壓縮器。一個影片包含的資訊太多,直接給模型,它就會崩潰,所以需要一個壓縮器去壓縮成模型可接受的資訊密度。但這麼一壓縮,重構必然會導致高頻細節丟失,而且VAE是獨立的模型,其生成的Latent Space 與大語言模型(LLM)或多模態模型(VLM)的語義空間不對齊,訓練上非常麻煩。2025 年10 月快手的《Latent Diffusion Model without Variational Autoencoder》 論文提出了SVG 模型,透過直接用影像理解模型取代VAE,統一語意空間,這個模式大大提升了訓練效率(號稱提升6200%)和生成速度。而且它的效果不但沒有因為「快」而縮水,反而在多項核心指標上擊敗了現在的霸主DiT(Diffusion Transformer)和SDXL。因為這個模式,有大一統的美,又有benchmark的美,應該很快就會成為主流。符號主義的World Labs :基於3D CV生成的世界第二派是史丹佛教授李飛飛領導的World Labs 派。這一派的特色就是,生成好,但要在固定的物理框架下生成。純粹自監督,太不可靠了。他們在2025年11月推出了首個商業產品Marble平台。這是一個「大型世界模型」(LWM),旨在從多模態輸入中產生可探索的3D 環境。與Sora 輸出像素流(影片)不同,Marble 輸出的是空間表示。根據媒體分析,Marble 大概率是依賴3D 高斯潑濺(3DGS) 作為其渲染基元,並可能結合了神經輻射場(NeRF)的結構估計原則。當使用者輸入單張圖像或文字提示時,Marble 會估計場景的深度、光照和被遮蔽的幾何結構。然後,它將這些2D 資訊「提升」為由數百萬個高斯「潑濺」(具有顏色、不透明度和縮放屬性的橢球體)組成的3D 體積。始終是放不下CV多年來世界建構的努力。這種對傳統CV的應用,也體現在World Labs 提供的創作工具Chisel 上。它引入了神經符號(Neuro-symbolic)工作流程。使用者可以使用粗略的幾何基元(盒子、平面)定義世界的“骨架”,以建立佈局約束(例如,“我需要這裡有一扇門,那裡有一堵牆”)。生成模型隨後根據文字提示對這一結構進行「繪製」和細節填充。比起Sora 生成的黑盒,Marble雖然不是很性感,但確實更穩定,更可控。也許World Labs這條路能是最早走通工業落地的方向。預測即理解:V-JEPA 2與物理直覺另外一派代表是Yann Lecun,他的特色就是極端的深度學習表徵派。對於他,大家可能都或多或少聽過,Lecun的觀點一直是:自回歸的生成式模型根本不可能掌握物理規則,只是鸚鵡而已。那要怎麼掌握規則呢?靠預測。只有預測,能學習物理規則的表徵,而不是那些像素的關係表徵。 Meta推出的V-JEPA 2,訓練機制就是隨機遮住影像的一部分(Masking),然後要求模型根據先前看到的畫面,預測被遮蔽部分的內容,只練預測。然後,一個教師編碼器看到完整的視頻,根據這個幫學生,生成目標特徵向量。這種設計使得V-JEPA 2具備了極高的語意抽象能力。模型被迫學習場景中那些「可預測」的規律(如重力下落、剛體碰撞),而自動忽略那些「不可預測」的隨機雜訊(如光斑的閃爍、背景的紋理雜訊)。在Yann Lecun的考慮中,這提取了因果本質。這套理念其實並不新,和他2024年初發布的V-JEPA 1完全一致。但當時,V-JEPA 1 只用了100M左右的資料集做訓練,其效果只能是理解視頻,並不能展現出反事實預測的能力。但在V-JEPA 2裡,Lecun優化了訓練過程,花了100萬+ 小時的影片訓練集,結果模型確實湧現了「推演」的能力。在V-JEPA 2-AC(動作條件化)變體中,JEPA模型確實做到了可以預測「如果我執行這個動作,世界會變成什麼樣子」。這毫無疑問,是對這條路徑的一劑強心針。說明預測,掌握物理規則這個訓練模式是有效的。不過到了JEPA 2,它能夠處理的時間跨度也不過64幀(根據採樣規律,約10秒),分辨率只有384x384。和人家生成路線高清2k、20s生成比起來,還是差太多。想要真正實用,還得在工程上做不少事。04重要的是學習從深度學習肇始,核心問題就只有一個,也就是什麼是學習。到2024年為止,大模型早已經具有了許多學習能力,能夠從海量資料中尋找到資料的連結方式,進而達成一種與人不同的學習模式。然而,在2025年,強化學習之父Richard Sutton 仍然批評當前的大語言模型(LLM)只是“被凍結的過去知識”,缺乏在與環境交互中實時學習的能力。這是說模型缺乏持續學習的能力,這個問題在上面記憶部分有可能會被解決。Sutton的另一個批評就是模型並不會元學習,也就是學習怎麼去學習,學什麼。他所謂的元方法(Meta-methods),指的就是「在這個時刻不要把知識寫死,而是把『獲取知識的能力』寫進程式碼裡」的方法。這樣,模型才能利用無限的算力和數據,去適應無限變化的世界。只有有元學習的能力的模型,才能在遇到新問題時, 透過很少幾個樣本,調動腦子裡的「通用解題邏輯」(元知識),立刻做出解答,做到真正的低成本、快速適應。並透過「如何觀察特徵、如何歸納特徵」的能力,迅速歸納出規則達成完整的動態泛化。沒有元學習,模型就不可能應付未知。 因為你無法預知未來會遇到什麼任務,所以你不能預先訓練它,只能賦予它現場學習的能力。元學習與中訓練在2024年之前,學術界一直有關於當時模型是否具有隱性元學習能力的討論。很多人認為是有的,因為有上下文學習(In-Context Learning)的現象。因為我們不改動參數,只是給GPT 看幾個例子(Prompt),它就像學過了一樣能夠舉一反三。對此,包括Anthropic在內的研究機構,都提出Transformer中的注意力機制在數學形式上,與模型學習時梯度下降(Gradient Descent)的更新步驟非常類似。 Deepmind的論文,更證明對於線性注意力模型,Transformer 的前向傳播過程可以被嚴格推導為「在大規模預訓練學到的權重上執行梯度下降」的過程。但同樣,也有很多研究,證明上下文學習其實沒在新學習例子中給出的映射關係,只是在自身的概念空間裡,利用格式(Format)激活了預訓練期間早就記住的知識。就是說啟動了相關性而已,不是真在學,而是在套模版。這和我們所提到的元學習的理念大相逕庭。不過,在2025年12月份,蘇黎世理工也發表了一篇Meta RL的論文,設計了更好的脈絡框架,更有效的利用ICL來作為一種元學習的方式。讓模型透過上下文自我反思和歷史回溯,來形成新策略。在下一次嘗試中,Agent 實際上是在執行一個新的Policy ,因為上下文變了。它看起來和上面提到的谷歌的ReMeM很像,但更關注策略更新,而不是上下文管理。也許他們結合起來,才是最好的上下文作為權重的方法。但最大的改變,是TTC的到來,為隱性元學習提供了其他的可能性。在推理革命初期,大家都發現可能模型思考了很長一段時間,輸出了很長的思維鏈,但要不是沒用,就是都是錯的。所以不是思維鏈越長模型就越強。我們得引導它的思考過程,讓它在最短的思考中,達成最優解。這其實本質上就是一種訓練模式如何思考的元學習。卡內基美隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個方向上的嘗試。它先證明了,模型在推理時產生的長CoT,本質上是一個Agent 在思考空間中探索最優路徑。那如果這種探索可以做到更有效,其實就是一種元學習的能力。這種元學習,就是引導模型在推理過程中,能有效尋找最佳路徑,合理地分配算力。他們使用的策略是累積遺憾最小化(Cumulative Regret)。如果模型多思考了很多步,但答案的置信度沒有提升,這就是個遺憾,需要在後續規避。我們在做強化學習的時候,應該引導模型盡可能減少遺憾發生的可能,讓模型知道遇到這種難度的題,我應該呼叫多少算力、嘗試幾條路徑。這就是學習的方法。但這些方法,雖然比單純的脈絡學習走的遠,但仍侷限在優化現有的探索路徑這個層面,向外探索的能力仍然不足。我們可能仍需要在單純的梯度之外,建構一套明確的系統,引導模型學習學習。例如DeepMind 今年發表DiscoRL,它包含兩個核心閉環:內部循環由Agent在Atari等遊戲環境中試錯,外部循環則由「老師」透過反向傳播觀察學生的表現,不斷修正教學策略(即更新學習演算法的參數)。這個過程讓AI自主發現了想要得到最好的結果,得從“獎勵最大化”轉向“未來預測”,而且這些預測往往集中在重大事件(如Ahamoment和改變方向)發生之前。在這過程中,教師獨立「重新發現」了RL中的自舉法,證明了AI可以透過這種遞歸的抽象從純粹經驗中真的學習到應該如何去探索。實驗結果顯示,由此系統自主發現的演算法(Disco57)不僅在雅達利基準上擊敗了包括MuZero在內的人類設計頂級演算法,更展現了驚人的泛化能力。即使在未見過的ProcGen和NetHack等複雜環境中,它依然表現出色,證明其學到的不是單一遊戲的技巧,而是普適通用的學習法則。Meta在《Agent Learning via Early Experience》的中訓練嘗試,其實也殊途同歸的走向了一樣的路徑。預訓練是讓AI死記硬背專家的正確操作,RL是直接扔到現實世界裡依靠稀缺的獎勵摸爬滾打。而中訓練,就是在這之間讓Agent自己瞎折騰產生後果,並且反思。具體到操作層面,在專家演示的每一步,會強制AI嘗試幾種不同的“備選動作”,然後記錄下這些動作會讓環境變成什麼樣。同時,也要對為什麼專家做得好,我做的不好進行反思。這其實就是訓練AI不僅僅知道“怎麼做是對的”,而是建立起“如果我這樣做,世界會那樣變”的因果模型。在一種探索和嘗試,以及對嘗試經驗的遞歸中,模型也許確實學會瞭如何學習這個世界的規律。它能顯著提升其在WebShop、ALFWorld等複雜環境中的成功率(平均提升9.6%),並大幅增強了泛化能力。這幾種方法有一個共通性,即他們都掌握了「想有效探索,必須建立一個對世界的預測」的想法。這和Google《General Agents Need World Models》一文的結論不謀而合。神經科學的投影2025年的神經科學研究,讓我們可能能更理解人類是如何進行學習的。過去我們認為神經網路是一個混雜的“黑盒”,但在《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內部存在著結構化、正交化的神經子空間。這些子空間就像是物理層面的“符號”,它們將“顏色”、“形狀”、“動作”等概念從混沌的電信號中剝離出來,形成了獨立的、可複用的模組。研究發現,大腦執行新任務不是靠修改神經元的連結(長出新腦細胞),而是靠一種「動態路由」機制。前額葉皮質根據當前的“任務信念”,像接線員一樣將不同的神經子空間重新連線。其實人類在學習過程中,是將簡單的模組拼裝成新任務來去行動。今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認為大腦的「語言區域」其實並不負責真正深刻的理解,它只是做了一些表層的處理,然後必須把訊息「外派」給大腦的其他專門區域(比如負責視覺、社交、物理推理的區域),才能實現真正的「深度理解」。在這種理解之上,2025年湧現了許多對模型進行分區的嘗試,包括上述的記憶分區,或是把模型的參數分成專門處理快、慢反應的兩個組別的嘗試。05讀寫速度、注意力和Scaling Law的基礎以上四個部分,可以說是2025年最引人注目的四個進步。因為它們在AGI的量表中,都是一步步覆蓋到原來完全為0的新領域。從零奠基,範式革新。然而在這之外,2025年也有其他一些重要改變,有效的補齊了過去模型並不擅長的領域(例如上下文和處理速度),並且可能隱含著一些訓練範式上的大規模修正可能。以下我們就透過一章,快速涵蓋這些領域。對抗“Scaling Law的消失”就像文章一開始所寫,在2024年末時,GPT 4.5已經遇到了網路資料枯竭的問題。而且在訓練超大型稠密模型的工程難度也幾何增加,問題不斷。Scaling Law眼看難以為繼之時,OpenAI 在GPT-5.2 中並未繼續盲目擴大參數,而是靠稀疏性(Sparsity),即MoE、合成資料(Synthetic Data)與RL加強三方結合,突破瓶頸。MoE,是DeepSeek 一直以來的方法,在V3成功之前, 業內很少有人使用。但它確實具有訓練資源消耗少的特徵(一次訓練整個模型vs 一次只訓部分專家),因此,大規模稠密模型帶來的工程問題在一定程度上被解決。而強化學習和測試時時間,讓模型可以繞過參數的Scaling Law,用上面說到的RL的Scaling Law繼續提升能力。但數據怎麼辦?在2025年,隨著推理能力的進步,模型現在已經可以自主生成長思維鏈(COT)文本了。 DeepSeek R1的論文表明,利用DeepSeek-R1產生的長思維鏈對小模型進行微調,其效果遠超使用人類專家編寫的CoT數據。因此,到此時合成資料的問題已經解決了一半。另外,2025年也有很多證據證明,數據在精,不在多。而且品質最好的就是長COT數據。芝加哥大學團隊的實驗數據表明,當數據量達到一定規模後,資訊大多是重複冗餘的,訓練效果反而不好。與其盲目追求P資料量,不如透過去重和多樣性篩選來降低資料密度,加強單位資料的「驚奇度」(Surprisal)。而且最有驚奇度的在現階段正是長COT。在他們的實驗Select2Reason中,僅僅篩選出前10% 推理路徑最長、最複雜的樣本進行訓練,其效果就匹配甚至超越了全量數據集。因此,長COT文字合成數據,已經成了翻越數據牆的一種最有希望的方式。但2025年10月的一項熱點研究發現,模型在大規模使用合成數據,包括互聯網上流行的AI生成數據後,會發生“腦損傷”,也就是遞歸(持續用自己推導自己)導致的模型崩潰(Model Collapse)。一方面模型的長尾泛化能力下降,另一方面,模型會持續放大過去產生的錯誤,盲目自信。不過研究並沒有單獨拎出來長COT文字資料做範例。好在這並非必然。南洋科技大在NeurIPS 2025的論文中,就建立了一種利用自我驗證機制過濾資料的方法。在產生合成資料後,模型會計算其內部置信度分數。如果分數低於某個閾值,表示模型對該生成內容存疑,那麼這些資料就要被丟棄。他們的數據證明,只要模型的校準誤差在一定界限內,僅憑自我驗證就可以在完全合成(Fully Synthetic)的資料體制下,讓模型一直訓練下去,而不會崩潰。在2025年,科學研究界也發明出了更複雜的方法來做清洗。例如利用另一個模型作為裁判(LLM-as-a-Judge)去搭建一個資料清洗流,確保其可驗證性和效果。甚至有意識的讓Agent去生產模型知識空間中的空白(Missing Nodes),以解決遞歸帶來的多樣性喪失。感謝蒸餾,我們或許不必再承擔推理慢的代價了Gemini 3 Flash在年底的橫空出世,讓人對小模型的能力提升有了非常直觀的感受。在Gemini 3 Flash之前,雖然Nvidia一直鼓吹小模型時代,微軟的Phi 4、谷歌的Gemma 3等小模型也表現不俗,但沒有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。所以2025年這一年到底發生了什麼,讓小模型突飛猛進?主要是蒸餾方法的兩大主要的進步:MoE的蒸餾,以及COT的蒸餾上。先說MoE蒸餾。在DeepSeek的帶領下,現在主流的模型都是用MoE的架構了。但先前的傳統的蒸餾方法往往忽略了那些未被路由選中的專家(Non-activated Experts)所蘊含的「暗知識」。2025年2月的論文《Every Expert Matters》就提出了針對MoE 的特化蒸餾方案。此方法在蒸餾過程中,透過多次採樣或強制活化策略,讓學生模型接觸教師模型中不同專家的組合輸出。這樣學生模型(通常是較小的稠密模型)不僅學習到了“最優解”,還學習到了不同專家對同一問題的不同視角。這類研究,給出了MoE蒸餾的工程方向。另一個難題就是將長思維鏈能力高效遷移到小模型。傳統的單一教師蒸餾處理長序列推理中的誤差累積問題非常不力,並不適合長COT的蒸餾。而簡單的將多位教師的資料混合(Data Union)往往會因為推理路徑的衝突而導致模型困惑,反而降低了效能。為了能因應這個情況,思維融合蒸餾(Merge-of-Thought, MoT) 應運而生。這是一個輕量級的、迭代式的蒸餾框架,透過共識去噪(Consensus Denoising)原理,讓多個教師可以有效的引導學生模型,還可以避免長序列推理的誤差累積。例如在解決同一個複雜數學或邏輯問題時,不同教師的表達各異,但其核心的推理邏輯往往是相似的。就那乾脆在高維度參數空間中,讓學生模型能夠提取出所有教師的“公約數”,即最穩健的推理邏輯。透過這兩種方式,加上長COT本身對蒸餾的增強作用,讓小模型的能力越來越強。也許有一天,我們甚至不用犧牲推理帶來的速度減緩,就能享受完整的智慧體驗了。注意力機制的變化,解放脈絡每一年,注意力機制都會有些新突破。畢竟這是自迴歸框架下最重要的機制之一,它深度影響了大模型的脈絡能力和指令遵從能力。 2025年的變化相對比較多元。如果說2024年以前是MHA(多頭注意力)的時代,那麼2025年則是MLA(Multi-Head Latent Attention,多頭潛在註意力)及其變體全面普及的時代。從DeepSeek從V3開始採用MLA架構後,它就開始大受歡迎。畢竟既能壓縮大量降低顯存佔用,又能保持了原有註意力機制的水平,多好。而且在推理COT越來越長的背景下,的KV Cache顯存爆炸問題更嚴重,MLA 也更加流行。不過在發展過程中,MLA現在很少是作為一個獨立的注意力層被應用,而是更多地作為一種「高性能組件」被嵌入到混合架構中,給其他更高效的注意力新方法做精度保底。2025年的另一個變化是線性注意力的複歸。長期以來,線性注意力被視為全注意力的一種「有損壓縮」妥協方案,它用精確度的下降換取推理速度。但在2025年,隨著Kimi Linear的發布,這種刻板印象被徹底打破。Kimi Linear採用3:1混合架構(3層線性穿插1層MLA),利用線性注意力層承擔主要的計算負載(節省75% KV緩存),再利用MLA兜底全局信息,實現了在1M超長上下文任務(RULER測試)中達到94.8的高分,性能上首次全面超越全注意力。這標誌著線性注意力現在又了從備胎轉為主力的實力。除此之外,Kimi還證明了線性注意力可以內在地學習各個token的位置信息,從而不再需要傳統的RoPE(旋轉位置編碼),在1M上下文解碼時,少了ROPE和N方的計算量,它的吞吐量可以達到全注意力的6.3倍。除了在傳統的Token層面優化注意力,2025年的另一個重要趨勢是打破離散Token的限制,朝向連續空間(Continuous Space)演進。這以「大型概念模型」(Large Concept Models, LCM)和騰訊的CALM(Continuous Autoregressive Language Models)為代表。傳統的LLM只預測下一個token,因此非常慢,且對於長文本概念的關聯性理解也不行。 Meta的Large Comcept Moedel 則試圖將多個Token壓縮為連續向量,從「預測下一個字」轉變為「預測下一個概念向量」。這增加了每個生成步驟的“語義頻寬”,在一次推理步驟中產生相當於原來4倍的信息量,理論上能讓模型訓練和推理的更快。這個邏輯很好,但在LCM提出時,因為壓縮token向量的工程化問題,其訓練效率並沒有比傳統方法提升太多。但今年10月,騰訊的CALM才第一次在工程上找到了平衡點,用更極簡的方式證明了這條路徑的工業可行性。062026,模型研究可能往那裡走?在了解完2025年模型的進步路徑後,我們可以暢想明年可能出現的一些研究方向。首先,我們上面提及的這些方向,毫無疑問會朝著更精細化和工程化的方向演進,進而為我們帶來模型體驗上的持續提升。從2025年的技術總結中,我們已經可以看到,幾乎所有重要的Scaling Law繼續發威的絆腳石都被搬的七七八八了。也正是因此,我們才在年末迎來了Gemini 3和GPT 5兩個確實提昇明顯的新模型。雖然像Test Time Compute這類範式革新性的創新是難以預測的,但有些已有苗頭的新方向很可能會在2026年結果,產生很重要的落地應用。我下面會羅列一些我認為可能會發生的技術推進方向。記憶的工程化實踐2026年,一定是記憶大年。因為記憶關切持續學習,事關Agent落地(個人化和新技能學習),如果理論上的方向已經明確,那除了工程上的難題外,基本上沒有什麼可以阻止它落地。在AI領域,我們以TTC革命為例子,可以看到一個複雜的系統性新想法從產生、實驗、工程落地,大概需要的時間是2年左右。 2024年末的GPT o1,實際上在22年左右,已經在Illya腦海中逐步成型,到方法確定和工程優化,大概用了整整兩年。在2025年,我們看到了從RAG、微調到架構上三種路徑上的思考都逐步邁向成熟,並且已經進行了小規模的實驗。這說明很可能再有一年時間,這些研究成果就可能在工程上成熟,被採用。在一個成功架構(例如像DeepSeek R1)的推動下,成為標配,完成範式轉換。即使做不到架構層的變化,RAG層的精修和SFT技術的最佳化,也可以讓之前那些實驗性的記憶系統,例如Mem0、Second Me有了更好的落地體驗。在2025年中,基本上主流模型都已經配置了基於情境的記憶系統。但在2026年,更細節,更具學習性的記憶將會逐步被產品化。標準架構的變革不論是Nested Learning、還是元學習,以及Universe of Thought,似乎都在證明著,我們當下的語言模型架構必須進行一些升級,才可能補全其缺失的能力。這種升級的趨勢主要以分區、分層、增加更多功能層為特質。不管是直接在層級間加入Titans 的記憶層,還是像Herachical Reasoning 那樣,把模型分成不同的分區,都可能更符合人腦運作的模式。在2026年,這種潛在的混合架構,可能會隨著神經學和符號主義的回潮,變得有更多更豐富的嘗試。進化的螺旋開啟2025年除了推理這個字之外,最熱門的應該就是自進化了。這是機器學習的聖杯。一個可以無限自我對弈、自我演化的通用型AI,基本上等於是AGI、ASI。不過在2025年,探索才剛起步。在這一年裡,有借鑒了生成式對抗網絡,讓模型能夠在無數據的情況下,自問自答進行強化學習的。這條路確實走的通,也確實是自進化,但它的上限依然受制於模型本身的預訓練能力,暫時沒有呈現出超過人工設計的後訓練的水平。自進化AI的另一個驗證方法是是否能發明出讓自己進化的演算法。這就是Alpha Evolve努力的一個方向。它是由系統使用Gemini Flash(追求速度)和Gemini Pro(追求深度)組成的模型集成,形成一個獨立的探索Agent。系統將目前表現最好的演算法程式碼作為上下文輸入LLM,並告訴這些Agent,去優化這段程式碼的某些具體方向。 LLM由此產生多個變異版本的程式碼。在Agent規則的限制下,這些變異一般是邏輯層面的重構,例如改變循環結構、引入新的數學技巧或調整資料結構。產生的程式碼會被放入沙箱環境中執行。系統透過預先定義的測試案例驗證其正確性(Provable Correctness),並透過效能分析器測量其效率(如延遲、吞吐量或指令數)。那些既正確又更有效率的演算法將被保留,成為下一代的父本。由此,持續的多次最佳化,最終帶來演算法的最優最佳化。在實踐上,Alpha Evolve確實找到了優於人類答案的最佳化演算法。不過,我們其實可以把Alpha Evolve看成Deep research的變體版本,只是把搜尋部分換成優化而已。在缺乏反思和內化,只是作為流程Agent存在的大模型,雖然確實可以找到演化演算法,但很難稱之為自進化。以上兩種比較有代表性的嘗試,其實都屬於自進化早期的嘗試。在記憶、合成資料、後設學習的模式完善之後,自進化的AI在2026年必然會產生更多的可能性。(騰訊科技)
AI進入「拼爹」的時代
有技術的,幹不過有背景的?如果說AI故事的第一章叫作「技術的革命」,那麼第二章的主題,看起來越來越像「權力的遊戲」。王晶曾說,過去的香港,每個拍電影的都是有“背景”的。因此演員和導演往往身不由己,電影生意的競爭也往往是背景的競爭。AI生意越來越有這個意思。大家都帶著背景和資源,這裡是Google、微軟、Meta、字節、騰訊、阿里交鋒的修羅場。每一天,抖音用自己浩如煙海的流量鋪天蓋地推舉豆包。Google用全公司的資源,在一系列APP裡狂推自己的Gemini。這種巨頭之力,那怕優秀如Manus、OpenAI也難以對抗。2025年11月起,原本落後的Google迅速在性能和使用者上追趕上了ChatGPT,尤其是在多模態領域,已經反超OpenAI在各種評測中位居第一。奧特曼直言,Google的崛起給OpenAI帶來很大的壓力。曾經火遍全球的通用智能體Manus,也放棄了單打獨鬥,網際網路巨頭Meta選擇將收購Manus。Kimi、DeepSeek這些紅極一時的“當紅炸子雞”早已被豆包、元寶鋪天蓋地的流量壓了下去。在這個拼爹的世界裡,似乎只有超級巨頭才有上桌的資格。以小博大的故事在商業裡十分常見。那怕是騰訊、阿里、Google、蘋果,也經常在某個領域輸給創業公司。但在AI裡,這種故事好像顯得困難了許多。看能力,更看資源娛樂圈裡有一種說法,藝人只要給足飽和式的曝光,都能紅。這也是眼下AI領域的現狀。ChatGPT是ChatBot的發明者,相當於蘋果發明了現代智慧型手機,無論是技術,還是品牌,都是真正的遙遙領先。但當超級巨頭Google發力,ChatGPT很快感受到了壓力。Gemini在多項機構評測中反超GPT,奧特曼在內部信中發出警告:公司的技術領先優勢正在縮小,並預計外界氛圍將在一段時間內“相當艱難”。國內市場,豆包早已取代Kimi成為月活第一的LLM產品。以搭載DeepSeek為賣點的元寶使用者資料也早已反超DeepSeek,成為了DeepSeek崛起的流量受益者。它們為什麼如此強勢,逆襲領先者?答案當然是因為有Google、字節跳動這些大廠在背後提供資源。其實明星AI創業公司背後都有大企業和大資本的投資,帳上也有很多錢,也有很多資源。但背靠巨頭帶來的生態優勢,創業公司們真的沒法復刻。比如Google直接把Gemini植入Android,作為默認的手機助手。Google還有排名第一的瀏覽器Chrome,Gmail,微軟的Copilot也直接融入Office套件。這種與常用APP繫結的方式,使用者不用也得用——而且為什麼不用呢?深度整合入常用APP的AI,體驗是非常絲滑的。金山軟體和微軟一樣,直接把AI融進WPS裡。騰訊也直接把元寶塞進微信裡,使用者無需下載任何APP就能在微信聊天框裡體驗到LLM。那怕是AI落腳點相對少的阿里和螞蟻,也有支付寶、夸克這樣的優質入口。這樣的做法OpenAI、Manus、Kimi們要如何模仿?難道為了與大廠競爭,還要自己做一個手機作業系統或者微信?有些生意,是自力更生,創業公司挑戰巨頭雖然困難,但也有機會。比如米哈游靠著幾部爆款遊戲,迅速在二次元遊戲領域裡成為老大,網易和騰訊資源再多,也沒能阻止米哈游的崛起。但有些生意,對外界的依附太重。AI應用恰恰是這種生意。第一,當然是因為它資產太重,網際網路產品最大的成本往往是買流量,但AI背後可能是數千億美元的固定資產,居民樓創業玩不轉。第二,更重要的是,它的使用場景,與生態的繫結太深,太需要與其他產品的聯動。Manus就是個很好的例子:它的功能當然強大,但在個人使用者端完全沒法獨立幹活,它需要“呼叫”其他網頁,依賴瀏覽器和瀏覽器中的資料。比如訂一張機票,需要帳號授權、支付授權——這些東西都掌握在Google、蘋果、微信這種巨頭手裡。Manus干的是系統級的活,卻完全沒有系統級的權限。相當於普通孩子學了一門“千萬資產理財課”,但他家卻沒有千萬資產。當Google這種瀏覽器和手機作業系統的擁有者親自下場,留給獨立智能體的空間就會越來越狹小。AI搜尋也感受到了這種壓力。畢竟在這個時代,搜尋早不是什麼獨立的APP了,iPhone裡的搜尋框,是由蘋果公司控制的。Perplexity再好用,它也不是蘋果的默認搜尋引擎——Google一年付200億美元獲得了這個身份。在國內,搜尋框則由百度、微信、手機廠商把持,他們很難把搜尋框交給AI創業公司。即便他們利用技術優勢,暫時在大廠的競爭壓力中獲得一定份額,他們還要面臨第二個難題:變現。AI的變現,也得拼爹富貴人家,總是更容易收回教育孩子的成本。他們送孩子去讀個水碩,可以憑藉家庭關係安排進國際銀行,或者進入家族企業擔當要職。但窮人家送孩子去國外讀一年碩士,畢業卻可能會因為學歷含金量不高找不到工作。視角切到AI的變現身上,也沒什麼不同,同樣的一個技術,小公司持有難以變現,大公司就能以不同的方式收到錢。比如在OpenAI還在陷入虧損難題的時候,微軟就通過把GPT服務打包進自家雲服務實現了業績的大幅度增長。OpenAI Service已經成了微軟Azure的王牌產品之一,畢竟客戶們本來就購買了微軟的雲服務,再買點AI服務,屬於捆綁銷售。更不用說Copilot和Office(Microsoft 365)的聯動,微軟把AI工具加入到辦公套件裡,上調訂閱費——不接受?那就別用Office。這也是微軟過去十年重要的增長來源。每當新技術、新變革、新功能出現時,他們就可以對訂閱服務漲價。當然這種漲價是雙贏的,客戶也收穫了便利和價值。在C端,從Gemini和OpenAI的會員中,也可以看到捆綁銷售能力的差距:同樣是賣20美元,Google就可以打包把GoogleOne(Android版本的iCloud)一併打包售賣,AI之外,使用者還能獲得Gmail、相簿裡的儲存空間。這是非常具備吸引力的捆綁銷售方案,畢竟那怕不用AI,使用者也需要郵件和存照片。不難想像,如果Manus屬於Google這樣的巨頭,也許它也會把Manus的訂閱服務加進這個20美元套餐裡,Manus的變現就會更加順滑。而OpenAI的訂閱幾乎只有ChatGPT,那怕Sora、Codex等新產品,也是靠OpenAI自己做的。豆包的變現花樣更加豐富。豆包的回答會把流量引入短影片——之後的商業模式就可以和抖音一樣了,在視訊中間插入廣告就好。豆包還上線了直接的Chat廣告,對話方塊的回答可以直達抖音生態內部的本地生活等服務。比如在豆包裡問附近的好餐館,豆包會直接給出團購連結。圖註:點選連結,就能直達餐館的抖音團購介面這種商業模式Kimi們很難學習,畢竟創業公司可沒有抖音那麼多短影片儲備,也沒有發達的本地生活服務或者電商的供應鏈。它只能向外去賣流量,但眼下的AI行業格局來看,大多數交易平台並不願意把入口交給其他AI工具,即便願意,變現的轉化率也不如生態內那樣高。如果沒有這些變現花樣,那麼AI的商業模式和老乾媽辣醬差不多——一手交錢,一手交貨。也就是在B端賣Token,C端賣訂閱。但這個模式太捲了:客戶只在乎多少錢買到多少Token,難以像微軟的雲服務一樣溢價。個人使用者的訂閱費價格被使用者習慣和行業共識限制:要麼20美元,要麼10-30人民幣。這是多個行業與使用者長期博弈出來的價格,是使用者訂閱習慣的平衡點,大多數行業的訂閱會員,最後都會回歸到這個數字附近。圖註:MiniMax國內產品“星野”的訂閱費用。事實上,國內大多數會員的網路訂閱會員的價格都在這個數字附近,誰想賣更貴都很困難。最近遞交招股書的智普AI和MiniMax,虧損資料都十分嚴重——創業公司,虧損當然很正常,但它們的虧損呈現逐年擴大趨勢,暫時看不到盈利預期在那裡。事實上,這二者的虧損被廣泛討論並不是因為它們的虧損尤為突出,只是因為它們遞交了招股書,在那些沒有遞交招股書的AI企業中,還藏著更為廣泛、普遍的虧損。那怕是已經有7億使用者的OpenAI也不例外。而這個問題,創業公司自己解決起來異常困難,最終很可能需要仰仗大廠的力量。小蝌蚪找爸爸在這個“拼爹”的世界裡,單打獨鬥似乎很難出頭。當出價合理,賣身給巨頭,也是不錯的選擇。Meta接連宣佈收購Scale和Manus,蘋果也被爆出考慮收購Perlexity。一旦被收購,情況就完全不同了。以Manus為例,它過去想呼叫一些功能,要看其他公司給不給權限,還要面臨巨頭自研智能體的競爭風險。但一旦屬於Meta,Manus就可以直接在WhatsAPP、INS、Messenger、Facebook裡獲得原生等級的權限,隨意呼叫各種聊天、購物的功能。更不用說Meta還有AI硬體的佈局,如果與AR眼鏡結合,Manus就能直接獲取SIRI等級的權限。這類AI應用公司,被大廠收購的好處實在是顯而易見。當然,如果自己能成為大廠,誰願意依附大廠呢?OpenAI就不願意。OpenAI原本是有巨頭靠山的,微軟是它的最大的單一機構股東。但可惜,由於特殊的架構,微軟並沒有獲得OpenAI的控制權。微軟管不了OpenAI,自然就不拿它當“親兒子”,不但自己有自己的AI產品,還訓練自己的模型。OpenAI也不想給誰做子公司,作為LLM的最大開創者,它只想自己成為超級大廠。明明微軟有現成的Edge瀏覽器,但OpenAI還是自己想做瀏覽器Atlas,明明微軟是最大的雲服務商,自己找合作夥伴建立算力能力,還與Google合作購買GCP服務。顯然,OpenAI希望成為美股七姐妹那樣真正的超級巨頭。這條路在網際網路時代是被驗證過的,每當行業出現大的變革,總會出現創業公司的崛起,用靈活性打得巨頭節節敗退,甚至最終自己成為巨頭。比如字節跳動在BAT三家統治的網際網路裡,硬是從居民樓裡殺出一條血路,成為網際網路的新一極。還有拼多多、米哈游這種在與騰訊和阿里的競爭中勝利,成為細分領域頭部的公司。畢竟行業的紅利時期總是充滿變革,方向、創意、技術、靈活性才是最重要的。但這條路在AI領域顯得難了太多,三年過去,創業公司的靈活性優勢和先發優勢不斷被大廠的體量碾壓,超級巨頭的優勢愈發明顯。巨頭對各種系統級的入口掌握權限,起到的作用太大了。如果說AI故事的第一章叫作「技術的革命」,那麼第二章的主題,看起來越來越像「權力的遊戲」。 (鈦媒體)
AI眼鏡賣得太好!Meta暫停國際擴張計畫
Meta宣佈,由於Meta Ray-Ban Display上市以來市場反響異常熱烈,需求遠超預期,公司決定暫停原計畫於2026年初推進的國際市場擴張,優先履行美國市場的訂單。在CES 2026年期間,科技巨頭Meta公司宣佈了一個頗為“掃興”的消息:由於去年推出的AI眼鏡賣得太好,原定於2026年初啟動的國際市場拓展計畫將被迫擱置。作為背景,Meta去年9月發佈新一代智能眼鏡Ray-Ban Display,配備全彩高畫質螢幕與神經感應腕帶,能夠通過語音和手部動作(肌電訊號)進行互動。這款眼鏡定價799美元,目前僅在美國市場銷售。(祖克柏在發佈會上展示Ray-Ban Display和腕帶)在周二發佈的公告中,Meta宣佈,Meta Ray-Ban Display去年秋季上市以來,市場反響異常熱烈,需求遠超預期,目前的產品等待名單已經排到2026年以後的較晚時間。鑑於這種前所未有的需求以及有限的產能,公司決定暫停原計畫於2026年初推進的國際市場擴張,包括英國、法國、義大利和加拿大。下一步Meta將優先集中資源履行美國市場的訂單,同時重新評估該產品在國際市場的供應與推出策略。此前Ray-Ban母公司Luxottica也曾表示,三季報營收增長中很大一部分來自與Meta的智能眼鏡合作。公司也表示,計畫在2026年將Meta聯名眼鏡的產能擴大至1000萬台。除了宣佈海外市場“跳票”以外,Meta也在CES公告中宣佈將推出多項智能眼鏡新功能,包括提詞器和肌電手寫功能。Meta表示,新的提詞器功能能夠隱蔽地嵌入眼前的顯示器中,支援自訂文字卡片,並能通過感應腕帶進行簡單操作。同時,在佩戴感應腕帶時,智能眼鏡使用者能夠僅用手指在任意表面上快速記下資訊,這些動作會被即時轉錄為數字資訊,通過即時通訊軟體傳送。Meta強調,這種互動方式可以在手臂自然垂放或在桌面上舒服地完成。Meta也表示,正在與Garmin合作將腕帶操作接入車載資訊娛樂技術方案中,也在與猶他大學合作評估消費級腕戴裝置的潛力,為不同手部活動能力的人群提供操控智能家居裝置的新選擇。 (科創板日報)
繼DeepSeek之後,中國AI新突破或再次震動華爾街
中國的AI技術基礎正在不斷進步,這一點不容忽視。中國正為輝達等美國晶片巨頭帶來新的AI威脅,這可能削弱市場對華爾街最大增長引擎的信心,就像一年前DeepSeek聊天機器人發佈時那樣。據《南華早報》報導,上海和北京高校的科學家們開發出了一款用於人工智慧訓練與推理的光子計算晶片,其性能優於包括輝達生產的傳統矽基晶片。報導稱,這款全新晶片被命名為LightGen,其運算速度和效率都超過了輝達的Blackwell 系列GPU,不過其應用場景更側重於視訊生成和圖像合成,而非更廣泛的AI工作負載。與此同時,Meta正以25億美元收購總部位於新加坡、由中國團隊創辦的人工智慧初創公司Manus,該公司聲稱已研發出全球首個通用AI代理,性能超越OpenAI的深度研究模型(Deep Research)。這兩項進展應引起投資者警惕,他們正在(或許已經有些不耐煩地)等待大型AI相關個股找到下一個增長突破口。過去幾個月,由於市場擔憂資料中心支出增速過快,且資金轉化為利潤的周期超出預期,這些科技巨頭的股價紛紛受挫。目前輝達較10月底觸及的最高點下降了11%,微軟和Meta則下降了約14%。規模較小的超大規模雲服務商股價回撤更為劇烈,甲骨文下跌了43%,而AI雲平台提供商CoreWeave則下跌超過48%。據標普道瓊斯指數資深分析師霍華德·西爾弗布拉特稱,大型科技股的漲幅將在2026年繼續成為標普500整體表現的關鍵支柱,“七巨頭”預計將為該指數預期的15%漲幅貢獻大約45%。其中,兩大AI龍頭股輝達和微軟,將佔據標普500指數預期漲幅的30%左右。如果投資者認為中國近期的技術進步對美國在AI領域的領先地位構成威脅,美股在年初可能會面臨大幅回呼的風險。不過到目前為止,儘管競爭壓力逐步顯現,投資者依然願意支援本土的人工智慧初創企業。據《華爾街日報》報導,OpenAI計畫在春季前再融資1000億美元,這將使其估值達到8300億美元。Deepwater資產管理公司的基恩·芒斯特(Gene Munster)表示,這意味著OpenAI的估值將是其2026年約350億美元預估銷售額中值的24倍左右。但問題依然存在。無論是AI公司還是美國聯邦政府,都還沒有準備好切斷對中國的關鍵元件供應。去年12月,美國總統川普批准輝達向中國客戶出售其高性能H200處理器——前提是輝達需向美國政府支付25%的營收分成。川普在Truth Social平台上發文稱:“我們將保障國家安全,創造美國就業崗位,並保持美國在AI領域的領先地位。輝達的美國客戶已經在積極採用其極為先進的Blackwell晶片,不久後還將採用Rubin晶片,這兩款產品都不在此次協議範圍內。”不過,中國尚未發放允許輝達銷售H200的許可,同時有報導稱,中國監管部門正推動本土製造的處理器,而非來自美國的產品。這讓外界感覺中國對自身在AI技術領域取得的進展充滿信心。中國最大的人工智慧企業之一DeepSeek去年1月發佈R1產品時,曾引發投資者恐慌,導致輝達股價暴跌17%,納斯達克綜合指數也下跌3%。LightGen晶片的出現目前尚未構成同等重大的擔憂。但值得注意的是,DeepSeek-R1的官方發佈時間是2025年1月20日,而市場的反應整整推遲了七天才到來。而且在年末最後幾個交易日,AI相關股票依舊表現不佳,原因包括資料中心的資本支出和實體經濟企業對新技術的接受度不高。因此,中國在AI領域的最新進展不容忽視。 (Barrons巴倫)